2013_DLCN

一、DLCN [2013]

《Spectral Networks and Deep Locally Connected Networks on Graphs》

卷积神经网络（ Convolutional Neural Networks: CNNs ）在机器学习问题中非常成功，其中底层数据representation 的坐标具有网格结构（grid structure）（一维、二维、或三维的网格），并且在这些坐标中，这些待研究的数据相对于该网格具有平移相等性（translational equivariance）或平移不变性（translational invariance）。语音、图像、视频就是属于这一类问题的著名的例子。
在常规网格上，CNN 能够利用多种结构来很好地协同工作，从而大大减少系统中的参数数量：
- 平移结构（translation structure）：它允许使用 filter 而不是通用的线性映射，从而实现权重共享（weight sharing）。
- 空间局部性：filter 的尺寸通常都远远小于输入信号的尺寸。
- 多尺度：通过步长大于一的卷积或者池化操作来减少参数，并获得更大的感受野（ receptive field）。
然而在许多情况下，数据并不是网格结构，如社交网络数据，因此无法在其上应用标准的卷积网络。图（graph ）提供了一个自然框架来泛化网格结构，并扩展了卷积的概念。在论文《Spectral Networks and Deep Locally Connected Networks on Graphs》中，作者将讨论在除了常规网格之外的图上构建深度神经网络。论文提出了两种不同的结构：
- 基于空域的卷积构建（Spatial Construction ）：通过将空间局部性和多尺度扩展到通用的图结构，并使用它们来定义局部连接和池化层，从而直接在原始图结构上执行卷积。
- 基于谱域的卷积构建（Spectral Construction）：对图结构进行傅里叶变换之后，在谱域进行卷积。
论文主要贡献如下：
- $O(n)$ $n$ 为输入节点总数），并且论文在低维的图数据集上进行了验证。
- $O(1)$ 参数的结构，通过实验验证了该结构并讨论了它与图上的谐波分析问题（harmonic analysis problem）的联系。

1.1 基础概念（读者补充）

1.1.1 拉普拉斯算子

$\mathbf{\vec F}(\mathbf{\vec x})$ $\Sigma$ $\mathbf{\vec x}$ $dS$ $\mathbf{\vec n}$ 为该微元的法向量，则该曲面的通量为：
$Φ_{\vec{F}} (Σ) = \oint_{Σ} \vec{F} \cdot \vec{n} d S$
$\Sigma$ $\mathbf{\vec x}$ 点的散度：
$div \vec{F} (\vec{x}) = \nabla \cdot \vec{F} = \nabla \cdot \vec{F} = \sum_{i = 1}^{n} \frac{\partial F_{i}}{\partial x_{i}}$
$\mathbf{\vec x} = (x_1,\cdots,x_n)^\top, \mathbf{\vec F} = (F_1,\cdots,F_n)^\top$ 。
散度的物理意义为：在向量场中从周围汇聚到该点或者从该点流出的流量。
$\mathbf{\vec F}(\mathbf{\vec x})$ $\Gamma$ $\mathbf{\vec x}$ $dl$ ${\vec \tau }$ 为该微元的切向量，则该曲线的环量为：
$Θ_{\vec{F}} (Γ) = \oint_{Γ} \vec{F} \cdot \vec{τ} d l$
$\Gamma$ $\mathbf{\vec x}$ 点的旋度：
$curl \vec{F} (\vec{x}) = \nabla \times \vec{F}$
在三维空间中，上式等于：
$\begin{matrix} \nabla \times \vec{F} = | \begin{matrix} \vec{i} & \vec{j} & \vec{k} \\ \frac{\partial}{\partial x} & \frac{\partial}{\partial y} & \frac{\partial}{\partial z} \\ F_{x} & F_{y} & F_{z} \end{matrix} | \\ = (\frac{\partial F_{z}}{\partial y} - \frac{\partial F_{y}}{\partial z}) \vec{i} + (\frac{\partial F_{x}}{\partial z} - \frac{\partial F_{z}}{\partial x}) \vec{j} + (\frac{\partial F_{y}}{\partial x} - \frac{\partial F_{x}}{\partial y}) \vec{k} \end{matrix}$
旋度的物理意义为：向量场对于某点附近的微元造成的旋转程度，其中:
- 旋转的方向表示旋转轴，它与旋转方向满足右手定则。
- 旋转的大小是环量与环面积之比。
$f(\mathbf{\vec x})$ $\mathbf{\vec x} = (x_1,\cdots,x_n)^\top$ ，则梯度定义为：
$\nabla f = {(\frac{\partial f}{\partial x_{1}}, \dots \frac{\partial f}{\partial x_{n}})}^{⊤}$
梯度的物理意义为：函数值增长最快的方向。
梯度的散度为拉普拉斯算子，记作：
$\nabla^{2} f = \nabla \cdot \nabla f = \sum_{i = 1}^{n} \frac{\partial^{2} f}{\partial x_{i}^{2}}$
- $f$ $f$ 极小值点流出，因此拉普拉斯算子衡量了空间中每一点，该函数的梯度是倾向于流出还是流入。
- 拉普拉斯算子也能够衡量函数的平滑度smoothness：函数值没有变化或者线性变化时，二阶导数为零；当函数值突变时，二阶导数非零。
$f(x)$ 为离散的一维函数，则一阶导数为一阶差分：
$f^{'} (x) = \frac{\partial f (x)}{\partial x} ≃ f (x + 1) - f (x)$
二阶导数为二阶差分：
$\begin{matrix} \nabla^{2} f = f^{''} (x) = \frac{\partial^{2} f (x)}{\partial x^{2}} = f^{'} (x) - f^{'} (x - 1) = [f (x + 1) - f (x)] - [f (x) - f (x - 1)] \\ = f (x + 1) + f (x - 1) - 2 f (x) \end{matrix}$
一维函数其自由度可以理解为2，分别是 +1 和 -1 两个方向。因此二阶导数等于函数在所有自由度上微扰之后获得的增益。
$G=(V,E)$ $|V|$ $\mathbf W$ $w_{i,j} = 0$ $i$ $|V|$ 。
$f_i$ $f(\cdot)$ $i$ $\mathbf{\vec f} = (f_1,f_2,\cdots,f_{|V|})^\top\in \mathbb R^{|V|}$ $f$ $G=(V,E)$ $i$ $j$ $(f_j-f_i)$ $(f_i-f_j)$ $w_{i,j}(f_i-f_j)$ 。
$f(\cdot)$ 也可以视为定义在图上的信号 signal 。
$i$ $i$ 的值。即：
$\begin{matrix} (\nabla^{2} f)_{i} = \sum_{j} \frac{\partial^{2} f_{i}}{\partial j^{2}} ≃ \sum_{j} w_{i, j} (f_{i} - f_{j}) = (\sum_{j} w_{i, j}) f_{i} - \sum_{j} w_{i, j} f_{j} \\ = {(D \vec{f})}_{i} - {(W \vec{f})}_{i} = {((D - W) \vec{f})}_{i} \end{matrix}$
$\mathbf D$ degree matrix $(\cdot)_i$ $i$ 个元素。
考虑所有的节点，则有：
$\nabla^{2} \vec{f} = (D - W) \vec{f}$
$\mathbf L = \mathbf D - \mathbf W$ ，因此在图的拉普拉斯算子就是拉普拉斯矩阵。
$f_i$ $f_i$ 为向量时也成立。
$m$ $\mathbf L\in \mathbb R^{m\times m}$ 是一个半正定对称矩阵，它具有以下性质：
- $m$ 个线性无关的特征向量。
- 半正定矩阵的特征值一定是非负的。
- 对称矩阵的特征向量相互正交，即：所有特征向量构成的矩阵为正交矩阵。
因此有拉普拉斯矩阵的谱分解：
$L {\vec{u}}_{k} = λ_{k} {\vec{u}}_{k}$
$\mathbf{\vec u}_k$ $k$ $\lambda_k$ $k$ 个特征值。
$\mathbf L = \mathbf U \mathbf\Lambda \mathbf U^\top$ ，其中：
$\begin{matrix} U = [{\vec{u}}_{1}, {\vec{u}}_{2}, \dots, {\vec{u}}_{m}] \in R^{m \times m} \\ Λ = [\begin{matrix} λ_{1} & 0 & \dots & 0 \\ 0 & λ_{2} & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & λ_{m} \end{matrix}] \end{matrix}$
$\mathbf U$ $\mathbf\Lambda$ 为对应特征值构成的对角矩阵。
$\mathbf L=(\mathbf D-\mathbf W)$ 的定义有：
$\begin{matrix} L [\begin{matrix} 1 \\ 1 \\ ⋮ \\ 1 \end{matrix}] = \vec{0} \end{matrix}$
$\mathbf L\mathbf{\vec u} = \lambda \mathbf{\vec u}$ $\lambda = 0$ $\mathbf L$ $\lambda =0$ $\mathbf L$ 的最小特征值。
$\mathbf L$ $m$ $\lambda_k$ $\mathbf L$ $\lambda_k$ $\mathbf{\vec u}_k$ 上的分量的信息越少，这意味着该分量是可以忽略的低频部分。其实图像压缩就是这个原理，把像素矩阵分解后，把小的特征值（低频部分）全部变成零。PCA 降维也是同样原理，把协方差矩阵特征分解后，取 top K 个特征值对应的特征向量作为新的特征空间。 25 $\mathbf L$ 对应的 25 维空间中，最大特征值、第1224 $\mathbf{\vec u}_k$ 的可视化。可以看到：特征值越大则对应特征向量的变化越剧烈，特征值越小则对应特征向量的变化越平缓。注意：最小特征值为零，并且对应的特征向量为全1 的向量（或者乘以常数倍），这意味着该特征向量在所有节点上取值相等（所以变化为零），即频率为零的分量。

1.1.2 卷积

$f(x)$ ，其傅里叶变换为：
$f (x) = \int_{- \infty}^{\infty} F (k) e^{i k x} d k$
$F(k) = \frac{1}{2\pi}\int_{-\infty}^{\infty} f(x) e^{-ikx} dx$ $k$ $e^{-iwx}$ 为傅里叶基 fouries basis 。
$e^{-ikx}$ 为拉普拉斯算子的特征函数。证明：
$\nabla^{2} e^{_{-} i k x} = \frac{\partial^{2} e^{- i k x}}{\partial x^{2}} = - k^{2} e^{- i k x}$
如果将傅里叶变换推广到图上，则有类比：
- $\mathbf L$ 。
- $k$ $\lambda_k$ 。
- $e^{-ikx}$ $\mathbf{\vec u}_k$ 。
- $F(k)$ $F(\lambda_k)$ ，其中：
  $\begin{matrix} F (λ_{k}) = {\hat{f}}_{k} = \vec{f} \cdot {\vec{u}}_{k} \end{matrix}$
  写成矩阵形式为：
  $\hat{\vec{f}} = U^{⊤} \vec{f}$
  其中：
  - $\mathbf{\vec f} \in \mathbb R^{m}$ $m$ $f_i$ 组成。
  - $\hat{\mathbf{\vec f}}$ 为图的傅里叶变换（谱域信号），它是在谱域上对应于不同特征值的振幅构成的向量。
    $\hat{\mathbf{\vec f}}$ $\mathbf{\vec f}$ $m$ $\left\{\mathbf{\vec u}_1,\cdots,\mathbf{\vec u}_m\right\}$ $\hat f_i$ $\mathbf{\vec f}$ $\mathbf{\vec u}_i$ 上的投影。
- $\mathcal F^{-1}(F(k)) = f(x) = \int_{-\infty}^\infty F(k)e^{ikx} dk$ 对应于图结构：
  $f_{i} = \sum_{k = 1}^{m} {\hat{f}}_{k} u_{k, i}$
  $u_{k,i}$ $\mathbf{\vec u}_k$ $i$ 个分量。写成矩阵的形式为：
  $\vec{f} = U \hat{\vec{f}}$
卷积定理：两个函数在时域的卷积等价于在频域的相乘。
$\begin{matrix} f (x) * h (x) = F^{- 1} (F (k) \times H (k)) = \int_{- \infty}^{\infty} F (k) \times H (k) e^{i k x} d k \\ F (k) = \frac{1}{2 π} \int_{- \infty}^{\infty} f (x) e^{- i k x} d x \\ H (k) = \frac{1}{2 π} \int_{- \infty}^{\infty} h (x) e^{- i k x} d x \end{matrix}$
对应于图上有：
$\vec{f} * \vec{h} = F^{- 1} (\hat{\vec{f}} ⊙ \hat{\vec{h}}) = U (K (U^{⊤} \vec{f})) = U K U^{⊤} \vec{f}$
$\odot$ $\mathbf U$ $\mathbf L$ $\mathbf K$ 为对角矩阵：
$\begin{matrix} K = [\begin{matrix} \vec{h} \cdot {\vec{u}}_{1} & 0 & \dots & 0 \\ 0 & \vec{h} \cdot {\vec{u}}_{2} & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & \vec{h} \cdot {\vec{u}}_{m} \end{matrix}] \end{matrix}$
这里将逐元素乘积转换为矩阵乘法。
$\mathbf K$ $\mathbf{\vec h}\cdot \mathbf{\vec u}_k = \theta_k$ ，然后学习卷积核：
$\begin{matrix} K = [\begin{matrix} θ_{1} & 0 & \dots & 0 \\ 0 & θ_{2} & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & θ_{m} \end{matrix}] \end{matrix}$
$\mathbf{\vec h}$ $\hat{\mathbf{\vec h}}$ 。

1.2 空域构建 Spatial Construction

1.2.1 基本概念

CNN $G = (\mathbf\Omega, \mathbf W)$ $\mathbf\Omega$ $m$ $\mathbf W\in \mathbb R^{m\times m}$ 为对称、非负的权重矩阵（这里采用无向图）。
这里的权重指的是图中边的权重，而不是神经网络的权重。
$\mathbf W$ locality $\mathbf W$ $\delta\gt 0$ ，并设置邻域为：
$N_{δ} (j) = {i ∣ i \in Ω, W_{i, j} > δ}$
$\mathcal N_\delta(j)$ $j$ 的邻域节点集合。
在执行卷积时，我们可以仅仅考虑将感受野限制在这些邻域上的 sparse filterlocally connected network $O(S\times m)$ $O(m^2)$ $S$ 为平均邻域大小。
$S$ $m$ $O(S\times m)$
图的多分辨率（multiresolution）分析：CNN 通过池化（pooling）层和降采样（subsampling）层来减少feature map 的尺寸，在图结构上我们同样可以使用多尺度聚类（multiscale clustering）的方式来获得多尺度结构。在图结构上如何进行多尺度聚类仍然是个开发的研究领域，我们这里根据节点的邻域进行简单的聚类。
图的邻域结构天然地代表了某种意义上的聚类。比如，社交网络的一阶邻域代表用户的直接好友圈子，以一阶邻域来聚类则代表了一个个的”小团体“。基于这些 ”小团体“ 进行聚类得到的高阶聚类可能包含了国家的信息，比如”中国人“被聚合在一个高阶聚类中，”美国人“被聚合在另一个高阶聚类中。
下图给出了多尺度层次聚类的示意图（两层聚类)。原始的12个节点为灰色。第一层有6 个聚类，聚类中心为彩色节点，聚类以彩色块给出。第二层有3 个聚类，聚类以彩色椭圆给出。

1.2.2 深度局部连接网络 Deep Locally Connected Networks

spatial construction $K$ 个尺度（scale0 $\mathbf\Omega_0 = \mathbf\Omega$ feature map $\mathbf\Omega_k$ feature map $\mathbf\Omega_{k-1}$ $d_k$ $d_0$ $m$ $k=1,2,\cdots,K$ 。
$\mathbf\Omega_k$ $d_k$ $d_k$ 个聚类的聚类中心。
$\mathbf\Omega_{k-1}$ $d_{k-1}$ $i$ $\mathcal N_{k,i}$ $\mathbf\Omega_{k-1}$ 中全部邻域集合的集合为：
$N_{k} = {N_{k, 1}, \dots, N_{k, d_{k - 1}}}$
$k$ $\mathbf\Omega_0$ real signal $k$ filter $f_k$ $k$ $f_{k-1}$ $d_{k-1}$ $f_k$ $d_k$ 维的信号。
$k$ 层神经网络的输入为：
$\begin{matrix} X^{(k)} = [\begin{matrix} x_{1, 1}^{(k)} & x_{1, 2}^{(k)} & \dots & x_{1, f_{k - 1}}^{(k)} \\ x_{2, 1}^{(k)} & x_{2, 2}^{(k)} & \dots & x_{2, f_{k - 1}}^{(k)} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ x_{d_{k - 1}, 1}^{(k)} & x_{d_{k - 1}, 2}^{(k)} & \dots & x_{d_{k - 1}, f_{k - 1}}^{(k)} \end{matrix}] \in R^{d_{k - 1} \times f_{k - 1}} \end{matrix}$
其中：
- $\mathbf X^{(k)}$ $k$ 层神经网络的输入 feature map 。
- $\mathbf X ^{(k)}$ $i$ $\mathbf {\vec x}^{(k)}_{i,:} = \left(x^{(k)}_{i,1},\cdots ,x^{(k)}_{i,f_{k-1}}\right)^\top\in \mathbb R^{f_{k-1}}$ $\mathbf\Omega_{k-1}$ $j$ 个节点的 feature 。
- $\mathbf X^{(k)}$ $j$ $\mathbf{\vec x}_{:,j}^{(k)} = \left(x_{1,j}^{(k)},\cdots,x_{d_{k-1},j}^{(k)}\right)^\top\in \mathbb R^{d_{k-1}}$ $j$ $f_{k-1}$ 个）。
$k$ $j$ 个输出信号定义为：
${\vec{x}}_{:, j}^{(k + 1)} = L^{(k)} h (\sum_{j^{'} = 1}^{f_{k - 1}} F_{j^{'}, j}^{(k)} {\vec{x}}_{:, j^{'}}^{(k)}), j = 1, 2, \dots, f_{k}$
其中：
- $f_{k-1}$ $f_k$ 为输出通道数。
- $\mathbf F^{(k)}_{j^\prime,j} \mathbf{\vec x}_{:,j^\prime}^{(k)}$ $j^\prime$ $\mathbf F^{(k)}_{j^\prime,j}$ 。
  $\sum_{j^\prime=1}^{f_{k-1}} \mathbf F^{(k)}_{j^\prime,j} \mathbf{\vec x}_{:,j^\prime}^{(k)}$ $j$ 个输出通道由所有输入通道的线性变换进行 sum 聚合而来。
- $\mathbf F^{(k)}_{j^\prime,j} \in \mathbb R^{d_{k-1}\times d_{k-1}}$ filter $j^\prime$ $j$ 个输出通道的参数矩阵。
  $\mathbf F^{(k)}_{j^\prime,j}$ $\mathcal N_k$ 来定义，即：
  $\begin{matrix} F_{j^{'}, j}^{(k)} (u, v) = {\begin{cases} θ_{j^{'}, j}^{(k)} (u, v), & v \in N_{k, u} \\ 0, & else \end{cases} \end{matrix}$
  $v$ $u$ $F_{j^\prime,j}^{(k)}(u,v)$ $F_{j^\prime,j}^{(k)}(v,u)$ $\left\{\theta_{j^\prime,j}^{(k)}(u,v)\right\}$ 为 filter 的待学习的参数。
  $u$ $\mathcal N_{k,u}$ ，即局部性。
- $h(\cdot)$ 为非线性激活函数。
- $\mathbf L^{(k)}$ $k$ 层的池化矩阵，矩阵的行表示聚类 cluster id，列表示节点id ，矩阵中的元素表示每个节点对应于聚类中心的权重：如果是均值池化则就是 1 除以聚类中的节点数，如果是最大池化则是每个聚类的最大值所在的节点。
  $\mathbf L^{(k)}$ $f_k$ $d_{k-1}$ $f_k$ $d_k$ 维的信号。
  $\begin{matrix} L^{(k)} = \begin{array}{cccc} {node}_{1} & {node}_{2} & {node}_{3} & \dots & {node}_{d_{k - 1} - 1} & {node}_{d_{k - 1}} \\ {cluster}_{1} & 1 & 0 & 0 & \dots & 0 & 0 \\ {cluster}_{2} & 0 & 1 / 2 & 0 & \dots & 0 & 1 \\ ⋮ & ⋮ & ⋮ & ⋮ & ⋱ & ⋮ & ⋮ \\ {cluster}_{d_{k}} & 0 & 1 / 2 & 0 & \dots & 1 & 0 \end{array} \in R^{d_{k} \times d_{k - 1}} \end{matrix}$
$\mathbf\Omega_k$ $\mathcal N_k$ 的构建过程：
- $\mathbf W_0 = \mathbf W$ 。
- $\mathbf W_k$ $\epsilon\text{-covering}$ $\mathbf\Omega_k$ 。理论上也可以采取其它聚类算法。
- $\mathbf\Omega_k$ $i,j$ 之间的连接权重为两个簇之间的所有连接的权重之和：
  $A_{k} (i, j) = \sum_{s \in Ω_{k} (i)} \sum_{t \in Ω_{k} (j)} W_{k - 1} (s, t)$
  然后按行进行归一化：
  $W_{k} = row-normalize (A_{k})$
- $\mathbf W_k$ $\delta$ $\mathcal N_k$ 。
$K=2$ 。
- $\mathbf\Omega_0$ 表示第零层，它有 12 个节点（灰色），信号为一个通道（标量）。
- $\mathbf\Omega_1$ $\mathbf\Omega_0$ ，输出 6 个节点，输出信号四个通道（四个filter ）。
- $\mathbf\Omega_2$ $\mathbf \Omega_1$ ，输出 3 个节点，输出信号六个通道（六个filter）。
每一层卷积都降低了空间分辨率spatial resolution，但是增加了空间通道数。
$S_k$ $\mathcal N_k$ $k$ 层卷积的平均参数数量为：
$O (S_{k} \times d_{k} \times f_{k} \times f_{k - 1})$
$S_k\times d_k\simeq \alpha d_{k-1}$ $\alpha$ $\alpha \in (1,4)$ 。
为什么这么做？论文并未说明原因。
空域构建的实现非常朴素，其优点是不需要对图结构有很高的规整性假设（regularity assumption）。缺点是无法在节点之间实现权重共享。

1.3 谱域构建 Spectral Construction

可以通过图拉普拉斯算子来探索图的全局结构，从而推广卷积算子。
$K$ $k$ feature map $\mathbf X^{(k)}\in \mathbb R^{d_{k-1} \times f_{k-1}}$ $\mathbf X^{(k+1)}\in \mathbb R^{d_{k-1} \times f_{k}}$ $k$ $j$ 个输出通道为：
${\vec{x}}_{:, j}^{(k + 1)} = h (\sum_{j^{'} = 1}^{f_{k - 1}} U K_{j^{'}, j}^{(k)} U^{⊤} {\vec{x}}_{:, j^{'}}^{(k)})$
其中：
- $\mathbf{\vec x}^{(k)}_{:,j^\prime}$ $j^\prime$ $\mathbf X^{(k)}$ $j^\prime$ 列。
- $\mathbf U$ 为拉普拉斯矩阵特征向量组成的矩阵（每一列表示一个特征向量）。
  $D$ $D$ regularity $\mathbf U$ $\mathbf U_D\in \mathbb R^{d_{k-1}\times D}$ 。这可以减少参数和计算量，同时去除高频噪声。
- $\mathbf K^{(k)}_{j^\prime,j}\in \mathbb R^{d_{k-1}\times d_{k-1}}$ $k$ $j^\prime$ $j$ 个输出通道的谱域 filterfilter $\mathbf K_{j^\prime,j}^{(k)}$ $k$ $f_{k-1}\times f_k\times d_{k-1}$ 。
  $O(1)$ $d_{k-1}$ 。
- $h(\cdot)$ 为非线性激活函数。
谱域构建可能受到以下事实的影响：大多数图仅在频谱的 top （即高频部分）才具有有意义的特征向量。即使单个高频特征向量没有意义，一组高频特征向量也可能包含有意义的信息。
然而，我们的构建方法可能无法访问这些有意义的信息，因为我们使用对角线形式的卷积核，在最高频率处它是对角线形式因此仅包含单个高频特征向量（而不是一组高频特征向量）。
傅里叶变换是线性变换，如何引入非线性目前还没有很好的办法。
$\mathbf U$ $\mathbf U^\top$ 矩阵乘法。
arrangement $k$ filter $\mathbf K_{j^\prime,j}^{(k)}$ 的对角线可以参数化为：
$diag (K_{j^{'}, j}^{(k)}) = K^{(k)} {\vec{α}}_{j^{'}, j}^{(k)}$
$\mathcal K^{(k)}\in \mathbb R^{d_{k-1}\times q_k}$ $\alpha^{(k)}_{j^\prime,j}\in \mathbb R^{q_k}$ $q_k$ 个样条参数。
$\alpha \sim d_{k-1}$ $q_k\sim d_{k-1}\times \frac{1}{\alpha} = O(1)$ $f_{k-1}\times f_k$ 。

1.4 实验

我们对 MNIST 数据集进行实验，其中MNIST 有两个变种。所有实验均使用 ReLU 激活函数以及最大池化。模型的损失函数为交叉熵，固定学习率为0.1 ，动量为 0.9 。

1.4.1 降采样 MNIST

我们将MNIST 原始的 28x28 的网格数据降采样到 400 个像素，这些像素仍然保留二维结构。由于采样的位置是随机的，因此采样后的图片无法使用标准的卷积操作。
采样后的图片的示例，空洞表示随机移除的像素点。
a $k=1$ b $k=3$ 。可以看到：层次越高，簇的数量越少。
a $\mathbf{\vec v}_2$ b $\mathbf{\vec v}_{20}$ （对应于较大的特征值）。可以看到：特征值越小的特征向量对应于低频部分（变化越缓慢，左图），特征值越大的部分对应于高频部分（变化越剧烈，右图）。
不同模型在 MNIST 上分类的结果如下。基准模型为最近邻模型 kNN ，FCN 表示带有 N 个输出的全连接层，LRFN 表示带有 N 个输出的空域卷积层，MPN 表示带有 N 个输出的最大池化层，SPN 是带有 N 个输出的谱域卷积层。
- 基准模型 kNN （第一行）的分类性能比完整的（没有采样的）MNIST 数据集的 2.8% 分类误差率稍差。
- 两层全连接神经网络（第二行）可以将测试误差降低到 1.8% 。
- 两层空域图卷积神经网络（第三行的下面部分）效果最好，这表明空域卷积层核池化层可以有效的将信息汇聚到最终分类器中。
- 谱域卷积神经网络表现稍差（第四行），但是它的参数数量最少。
- top $200$ 个频率）的谱域卷积神经网络的效果优于常规的谱域卷积神经网络。
由于 MNISTfilter $\mathbf F^{(k)}_{j^\prime,j}$ 的定义从而很明确的满足这一约束，而谱域卷积则没有强制空间局部性。在谱域 filter 上添加平滑约束可以改善分类结果，因为 filter 被强制具有更好的空间局部性。
- 图 (a),(b) 表示同一块感受野在空域卷积的不同层次聚类中的结果。
- 图 (c),(d) 表示谱域卷积的两个拉普拉斯特征向量，可以看到结果并没有空间局部性。
- 图 (e),(f) 表示采用平滑约束的谱域卷积的两个拉普拉斯特征向量，可以看到结果有一定的空间局部性。

1.4.2 球面 MNIST

我们将MNIST 图片映射到一个球面上，构建方式为：
- 4096 $\mathbb S =\{s_1,\cdots,s_{4096}\}$ 。
- $\mathbf E = (\mathbf{\vec e}_1,\mathbf{\vec e}_2,\mathbf{\vec e}_3)$ $||\mathbf{\vec e}_1|| = 1,||\mathbf{\vec e}_2||=2,||\mathbf{\vec e}_3||=3$ $\mathbf\Sigma = (\mathbf E + \mathbf W)^\top(\mathbf E + \mathbf W)$ $\mathbf W$ $\sigma^2\lt 1$ 的独立同部分的高斯分布的分布矩阵。
- MNIST $\Sigma_i$ PCA $\{\mathbf{\vec u}_1,\mathbf{\vec u}_2,\mathbf{\vec u}_3 \}$ $\mathbb S$ 上。
由于数字 6 和 9 对于旋转是等价的，所以我们从数据集中移除了所有的 9 。
下面给出了两个球面 MNIST 示例：
a $\mathbf{\vec v}_{20}$ b $\mathbf{\vec v_{100}}$ 。可以看到：特征值越小的特征向量对应于低频部分（左侧），特征值越大的部分对应于高频部分（右侧）。
$\sigma^2=0.2$ ，结果如下表所示。
- 基准的 kNN 模型的准确率比上一个实验（随机采样 MNIST ）差得多。
- 所有神经网络模型都比基准 KNN 有着显著改进。
- 空域构建的卷积神经网络、谱域构建的卷积神经网络在比全连接神经网络的参数少得多的情况下，取得了相差无几的性能。
不同卷积神经网络学到的卷积核（即 filter ）如下图所示。
- 图 (a),(b) 表示同一块感受野在空域卷积的不同层次聚类中的结果。
- 图 (c),(d) 表示谱域卷积的两个拉普拉斯特征向量，可以看到结果并没有空间局部性。
- 图 (e),(f) 表示采用平滑约束的谱域卷积的两个拉普拉斯特征向量，可以看到结果有一定的空间局部性。
$\{\mathbf{\vec u}_1,\mathbf{\vec u}_2,\mathbf{\vec u}_3 \}$ $\mathbb R^3$ 中的随机的一组基，此时所有的模型的效果都较差。这时需要模型有一个完全的旋转不变性，而不仅仅是平移不变性。